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摘要 : [目的 /意义 ] 在 新 时 代 人 民 日 报 分 词语 料 库 的 基础 上 构建 的 深度 学 习 自动 分 词 模型 ,不 仅 有 助 于 为 
高 性 能 分 词 模型 的 构建 提供 经 验 ,也 可 以 借助 具体 的 自然 语言 处 理 研究 任务 验证 深度 学 习 相 应 模型 的 性 能 。 
[方法 /过 程 ] 在 介绍 双向 长 短 时 记忆 模型 (Bi-LSTM) 和 双向 长 短 时 记忆 与 条 件 随机 场 融合 模型 (Bi-LSTM- 
CRF) 的 基础 上 ,阐明 汉语 分 词语 料 预 处 理 评价 指 标 和 参数 与 硬件 平台 的 过 程 \ 种 类 和 情况 ,分 别 构建 BiLSTM 
和 Bi_LSTM_CRF 汉语 自动 分 词 模型 ,并 对 模型 的 整体 性 能 进行 分 析 。[ 结果/ 结论] 从 精准 率 .召回 率 和 调和 平 
沟 值 3 个 指标 上 看 ,所 构建 的 Bi-LSTM 和 Bi-LSTM-CRF 汉语 自动 分 词 模型 的 整体 性 能 相对 较为 合理 。 在 具体 
己 能 上 ,Bi-LSTM 分 词 模型 优 于 BiLSTM-CRF 分 词 模型 ,但 这 一 差距 非常 细微 。 
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对 于 现代 汉语 文本 来 说 ,分 词 是 后 续 文 本 处 理 及 
探 涡 的 基础 。 没 有 精准 而 高 效 的 自动 分 词 模型 ,现代 
汉 潘 的 词性 标注 实体 识别 .句法 分 析 和 机 器 翻译 等 都 
布 能 有 效 地 进行 。 自 动 分 词 模型 的 构建 一 方面 取决 于 
高 硅 量 人 工 构建 的 能 够 体现 时 效 性 的 语料库 , 另 一 方 
面世 受制 于 机 器 学 习 模 型 的 性 能 。 本 文 基于 自行 构建 
的 锋 时 代 人 民 日 报 分 词语 料 库 ( New Era People”s Dai- 
ly Segmented Corpus ,简称 NEPD)' ,结合 相应 深度 学 
习 模 型 ,探讨 基于 NEPD 的 现代 汉语 文本 自动 分 词 模 
型 构建 问题 。 这 一 探究 不 仅 有 益 于 验证 深度 学 习 在 现 
代 汉 语 分词 上 的 性 能 而 且 有 利于 后 续 更 加 细致 和 深入 
地 基于 深度 学 习 构 建 高 性 能 的 分 词 模 型 。NEPD 涵盖 
了 《人 民 日 报 》2015 上 半年 (1 -6 月 ) 及 2016 年 1 月 、 
2017 年 1 月 、2018 年 1 月 共 9 个 月 的 语 料 , 同 时 进行 了 
人 工分 词 标 注 ,是 经 过 人 工 加 工 的 精 语 料 ""。 

自 深度 学 习 被 应 用 于 自然 语言 处 理 研究 以 来 , 国 
内 外 的 研究 者 先后 把 深度 学 习 应 用 在 了 汉语 的 自动 分 
词 探究 上 ,比较 有 代表 性 的 研究 如 下 :@D 通 过 基本 的 深 
度 神经 网 络 模型 探究 汉语 自动 分 词 的 问题 。X. Zheng 


等 “利用 大 规模 未 标注 的 数据 来 改善 汉语 的 内 部 表 
示 , 利 用 这 些 改进 的 表示 来 加 强 监督 字段 的 分 割 ,并 利 
种 训练 神经 网 络 的 感知 式 算法 ,以 最 小 的 计算 能 
力 改 进 了 中 文 分 词 模型 的 性 能 。 在 4 个 自然 语言 处 理 
任务 中 ,X. Li 等 ”将 依赖 词 的 模型 和 基于 神经 字符 的 
模型 进行 比较 ,发 现 后 者 始终 优 于 前 者 。 造 成 这 一 结 
果 的 原因 是 基于 词 的 模型 更 易 受 到 数据 稀 玻 性 和 词汇 
不 足 的 影响 而 产生 训练 过 度 拟 合 问题 。 该 研究 的 结论 
启发 后 续 的 研究 者 应 该 在 训练 模型 的 过 程 中 避免 过 拟 
合 问题 的 出 现 。@ 基 于 长 短 时 记忆 神经 网 络 的 自动 分 
词 模型 构建 。 张 洪 刚 和 李 焕 中 提出 了 Bi-LSTM 神经 网 
络 中 文 自动 分 词 模 型 ,具体 来 说 ,是 将 字 向 量 应 用 于 Bi 
-LSTM 模型 实现 分 词 ,并 在 简体 和 繁体 中 文 数据 集 上 
进行 了 实验 。 这 一 探究 为 进行 基于 Bi-LSTM 的 汉语 自 
动 分 词 提供 了 借鉴 。 在 流行 的 数据 集 上 ,J. Ma 等 中 通 
过 实验 验证 了 BiLSTM 模型 比 复杂 的 神经 网 络 模型 能 
达到 更 高 的 中 文 分 词 准确 性 。 但 在 未 登录 词 这 一 中 文 
分 词 的 难点 上 ,Bi-LSTM 深度 学 习 模型 仍 有 待 改 进 之 
处 ,为 解决 这 一 问题 ,一 方面 应 该 对 模型 进行 严格 的 调 
优 , 另 一 方面 应 进一步 扩大 语料库 以 提高 模型 的 训练 
性 能 。 通 过 在 微软 研究 院 提供 的 语 料 和 北京 大 学 人 民 
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日 报 语 料 上 进行 测试 , 解 宇 涵 中 提出 了 一 种 基于 字 幅 
入 的 BiLSTM 中 文 分 词 模型 ,并 验证 了 该 模型 比 传统 
的 HMM 模型 在 自动 分 词 上 更 加 突出 。 在 继承 LSTM 
模型 可 自动 学 习 特征 的 基础 上 , 李 雪 莲 等 ”提出 了 基 
于 门 循环 单元 神经 网 络 的 中 文 分 词法 ,该 模型 能 有 效 
发 挥 长 距离 依赖 信息 的 优点 ,从 实验 结果 上 看 该 方法 
显著 提升 了 自动 分 词 的 性 能 。 通 过 对 不 同 的 语 料 数据 
加 上 人 工 设 定 的 标识 符 , 姜 猛 等 中 在 所 提出 的 异 构 处 
理 数据 方法 基础 上 ,利用 LSTM 模型 来 对 处 理 过 的 数 
据 进 行 训 练 ,实验 表明 该 策略 能 有 效 提高 分 词 模型 的 
整体 性 能 。 这 一 研究 充分 说 明了 对 训练 语 料 进行 前 期 
处 理 的 合理 性 和 有 效 性 。 在 充分 挖掘 分 词 对 象 字 位 标 
记 特 征 的 基础 上 ,王玮 ”提出 了 把 双向 长 短期 记忆 神 
经 网 络 模型 与 相应 字 位 标记 相 融 合 的 自动 分 词 策 略 ， 
通过 与 CRF 等 方法 对 比 ,实验 结果 表明 Bi-LSTM 与 六 
字 位 相 融 合 效果 最 优 。 这 一 研究 对 于 后 续 探 究 的 启示 
,在 条 件 允 许 的 情况 下 ,对 双向 LSTM 进行 释 加 并 
ER 相应 的 字 位 标记 能 提升 分 词 的 整体 性 能 。@@ 基 于 
长 短 时 记忆 神经 网 络 与 条 件 随机 场 相 融 合 的 自动 分 词 
模型 构 建 。 在 通过 word2vec 对 语 料 数据 的 嵌入 处 理 基 
砷 


LSTM ,并 在 输出 层 添加 CRF ,从 而 构建 自动 分 词 模型 。 


与 这 方法 一 样 , 王 梦 铀 5 和 薛 源 c 也 提出 了 把 Bi- 


LS 与 CRF 相 结合 的 自动 分 词 策略 。 上 述 研究 所 构 
于 手 模 型 的 分 词 结果 达到 了 较 好 的 准确 性 ,本文 直接 
借鉴 了 这 一 研究 理念 和 方法 。 与 上 一 研究 相似 ,在 利 
用 疗 词 对 象 上 下 文 信息 的 基础 上 , 张 子 害 和 刘 云 清 ™ 
提 国 了 一 种 基于 长 短期 记忆 神经 网 络 改 进 的 双向 长 短 


LSTM-CRF 模型 的 整体 性 能 。 在 中 文 分 词 模 型 Bi- 
LSTM-CRF 模型 和 seq2seq 模型 基础 上 , 刘 玉 德 "通过 
融入 注意 力 机 制 来 对 上 述 模 型 进行 改进 ,而 实验 结 
表明 改进 后 的 分 词 模 型 具有 更 好 的 分 词性 能 。 根 据 对 
上 述 3 个 层次 上 自动 分 词 相应 研究 的 综述 ,可 以 归纳 
如 下 两 个 方面 的 特征 :一 方面 ,上 述 探究 不 仅 有 效 使 用 
了 深度 学 习 的 相应 模型 ,还 把 深度 学 习 模型 与 其 他 机 
器 学 习 模 型 进行 了 融合 ; 另 一 方面 ,在 发 挥 深度 学 习 模 
型 优势 的 同时 ,也 把 相应 的 分 词 对 象 的 特征 添加 到 了 
自动 分 词 模型 构建 当中 。 

在 上 述 国 内 外 探究 的 基础 上 ,基于 新 时 代 人 民 日 
报 分 词语 料 , 结 合 Bi-LSTM 和 Bi-LSTM-CRF 模型 ,采用 
十 折 交 叉 验 证 法 ,本 文 构建 了 相对 应 的 深度 学 习 自 动 
分 词 模型 ,并 对 模型 的 整体 性 能 进行 了 评价 。 整 个 基 


- 昌 ,X. Wang 等 "把 所 获取 的 租 入 特征 反馈 给 Bi- 


期 记忆 条 件 随机 场 模型 ,并 通过 具体 的 实验 验证 了 Bi- 


于 深度 学 习 的 自动 分 词 模 型 构建 思路 如 下 :首先 ,通过 
文献 调研 分 析 目 前 主流 的 深度 学 习 应 用 于 汉语 自动 分 
词 的 状况 ,并 确定 具体 所 使 用 的 深度 学 习 模 型 ,同时 对 
所 选取 的 模型 进行 相应 的 特征 和 性 能 分 析 。 其 次 , 结 
合 深度 学 习 模 型 的 特性 ,对 所 选取 的 新 时 代 人 民 日 报 
语 料 按照 深度 学 习 训练 和 测试 的 要 求 进行 预 处 理 , 并 
进行 字 欧 入 的 生成 。 最 后 ,基于 所 选取 的 Bi-LSTM 和 
Bi-LSTM -CRF 深度 学 习 模 型 ,构建 面向 新 时 代 人 民 日 
报 语 料 的 自动 分 词 模型 ,并 在 所 选 定 的 模型 参数 上 对 
所 构建 的 模型 进行 细致 而 全 面 的 性 能 计算 和 评估 。 


2 ”自动 分 词 深 度 学 习 模 型 介绍 

从 汉语 自动 分 词 的 任务 上 看 ,自动 分 词 是 一 个 典 
型 的 线性 序列 任务 。 结 合 已 有 的 相关 研究 ,根据 深度 
学 习 相 应 模型 的 特征 ,在 深度 学 习 自 动 分 词 模型 的 构 
建 中 ,本 文 主要 基于 Bi-LSTM 和 Bi-LSTM -CRF 这 两 个 
具体 的 深度 学 习 模 型 完成 的 。Bi-LSTM 和 Bi -LSTM - 
CRF 模型 的 具体 特征 如 下 所 述 ; 


2.1 BiILSTM 模型 

在 整个 深度 学 习 系 列 模 型 中 ,循环 神经 网 络 (re- 
current neural network ,RNN ) [| 是 一 类 用 于 序列 标记 的 
人 工 神经 网 络 ,因此 该 类 深度 学 习 模 型 特别 适用 于 自 
动 分 词 .词性 标注 和 实体 识别 等 自然 语言 处 理 相应 的 
探究 任务 上 。 从 该 模型 的 理论 上 来 说 ,RNN 能 够 学 习 
不 同 自动 分 词 字 特 征 之 间 长 期 的 依赖 关系 属性 ,但 在 
自动 分 词 模型 训练 的 过 程 中 随 着 时 间 序 列 的 推移 ， 
RNN 自动 分 词 的 深度 不 断 加 深 , 当 RNN 自动 分 词 的 层 
数 达 到 一 定 的 临界 值 的 时 候 , 容易 使 梯度 下 降 坡度 呈 
指数 减少 或 指数 增 大 ,从 而 导致 梯度 消失 和 梯度 爆炸 
现象 的 出 现 。 而 LSTM 的 出 现在 一 定 程度 上 有 效 地 解 
决 了 RNN 的 这 一 历史 遗留 问题 。 对 于 汉语 自动 分 词 
来 说 ,LSTM 通过 实现 与 记忆 单元 (memory cell ) 的 结 
合 , 并 引入 门 (gate ) 控制 器 来 控制 自动 分 词 模型 训练 
过 程 中 历史 信息 的 保留 和 丢弃 。 常 规 来 说 ,一 个 LSTM 
神经 网 络 神 经 元 包含 一 个 记忆 单元 和 3 种 门 ,对 于 自 
动 分 词 来 说 ,分 别 是 分 词 相应 信息 的 输入 门 (input 
gate ) ,分 词 相应 信息 的 输出 门 (output gate) 和 分 词 相 
应 信息 的 遗忘 门 (forget gate)。 这 3 种 门 分 别 用 于 控 
制 分 词 相应 信息 的 输入 信息 .输出 信息 和 记忆 单元 中 
言 息 的 保留 或 丢弃 ,从 而 可 以 更 有 效 地 记忆 构建 自动 
分 词 模 型 所 需 的 相应 分 词 信 息 。LSTM 记忆 单元 的 计 
算 公式 如 下 : 

ii=o(Wih,,_ 1, +U;x, +Dbi) 


公式 (1) 
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f=o(Wih,, 1 + Ux, +b;) 公式 (2) 

o=a(Wh n+Uox +b,) 公式 (3) 
ci=fiOc1 +iiOtanh( Wh + Ux +b.,) 

公式 (4) 

h, =oOtanh(c ) 公式 (5) 

对 于 汉语 自动 分 词 模型 构建 来 说 ,前 3 个 公式 中 

的 if 和 o 分 别 表示 的 是 t 时 刻 的 自动 分 词 输入 控制 

门 ,自动 分 词 遗忘 控制 门 和 自动 分 词 输出 控制 门 。 最 

后 一 个 公式 中 的 c, 表示 的 是 t 时 刻 与 自动 分 词 相 关 的 

记忆 单元 向 量 。U; ,Ui,U.,U, 分 别 是 汉语 自动 分 词 的 


制 门 之 间 的 连接 权重 矩阵 ,并 且 是 汉语 自动 分 词 控 制 
门 和 隐藏 状态 h 之 间 的 连接 权重 矩阵 。b, ,bi,b. ,b, 分 
别 对 应 了 自动 分 词 训练 模型 中 的 偏 置 向 量 。 对 于 汉语 
自动 分 词 模型 构建 来 说 ,通过 对 记忆 单元 和 控制 门 的 
引入 ,LSTM 在 一 定 程 度 上 解决 了 RNN 难以 有 效 获取 
长 度 跨 度 比 较 大 的 汉语 词汇 间 的 字 与 字 特 征 的 问题 。 
Bi-LSTM 模型 是 拥有 两 个 相反 方向 LSTM 并 行 层 的 双 
向 LSTM 神经 网 络 , 能 够 同时 存储 来 自 两 个 方向 的 与 
汉语 自动 分 词 相 关 的 信息 。 图 1 是 基于 NEPD 语 料 的 
BiLSTM 汉语 自动 分 词 模型 架构 图 : 


字 输 入 序列 | x6 ,x ，,… ,Xx,,xiw4，"…| 和 各 个 汉语 分 词 控 
wi 加 国 国 国 

1 
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© 双向 LSTM 层 : 

i “errr 
a 0O 
>< 图 1 基于 BiLSTM 
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CS 从 图 1 可 以 看 出 ,基于 Bi-LSTM 的 汉语 自动 分 词 
模型 框架 共 包 含 5 层 ,从 下 往 上 依次 为 第 1 层 至 第 5 
层 @3 第 1 层 是 新 时 代 人 民 日 报 分 词语 料 的 输入 层 , 即 
将 语 料 以 字 为 单位 逐一 输入 。 第 2 层 为 新 时 代 人 民 日 
报 分 词语 料 库 中 的 汉字 的 字 向 量 映射 层 , 采 用 分 布 式 
表示 的 方式 将 每 一 个 语料库 中 的 汉字 均 转 化 为 128 维 
的 字 向 量 ,以 便于 神经 元 进行 汉字 特征 的 特征 提取 与 
计算 。 第 3 层 为 双向 LSTM 神经 网 络 层 ,从 图 1 可 以 看 
出 ,在 汉语 自动 分 词 模型 构建 中 ,双向 LSTM 神经 网 络 
层 拥有 两 个 相反 方向 并 行 层 的 LSTM ,可 以 同时 完成 从 
前 向 后 和 从 后 向 前 对 分 词语 料 中 的 字 与 字 之 间 的 特征 
进行 有 效 提取 与 充分 训练 。 第 4 层 为 自动 分 词 模型 构 
建 的 Softmax 激活 函数 层 。 由 于 汉语 自动 分 词 模型 构 
建 涉及 到 BIE、S 4 种 标签 的 标注 ,因此 使 用 维度 为 4 
的 softmax 激活 层 来 进行 4 种 标签 的 概率 预测 ,以 求 出 
可 能 性 最 大 的 汉语 自动 分 词 结果 输出 标签 。 最 后 一 层 
是 汉语 自动 分 词 的 标记 输出 层 ,经 softmax 计算 后 ,所 
得 到 的 每 个 汉字 概率 值 最 大 的 分 词 标签 将 在 这 一 层 输 
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的 汉语 自动 分 词 模型 架构 


出 。 
2.2 ”BiLSTM-CRF 模型 


在 汉语 自动 分 词 模型 构建 中 ,尽管 通过 Bi-LSTM 


模型 可 以 获得 较 好 的 分 词 序 表 


| 效果 


,但 是 对 于 中 文 自 


动 分 词 这 类 输 H 


标签 之 间 存 在 较 强 依赖 关系 的 序列 标 


记 问 题 ,由 于 softmax 激活 函数 只 能 考虑 当前 汉语 字 分 
布 状 态 的 特征 ,不 能 有 效 关联 汉语 字 的 前 后 特征 ,并 实 
现 针对 汉语 自动 分 词 的 联合 标签 概率 的 预测 ,因此 Bi- 
LSTM 模型 下 的 汉语 自动 分 词 模 型 性 能 将 会 受到 影响 。 
为 了 解决 汉语 自动 分 词 的 这 一 问题 ,基于 Bi -LSTM - 
CRF ”构建 汉语 自动 分 词 模型 就 应 运 而 生 。Bi-LSTM - 
CRF 模型 主要 是 通过 去 掉 Bi -LSTM 模型 中 的 Softmax 
层 , 代 之 以 CRF 线性 层 而 实现 把 Bi -LSTM 模型 与 CRF 
模型 融合 在 一 起 。 这 一 模型 组 合 在 完成 构建 汉语 自动 
分 词 模型 的 过 程 中 ,不 仅 保留 了 Bi-LSTM 能 够 同时 考 
虑 当前 汉语 字 的 上 下 文 信息 的 特性 ,而 且 还 通过 CRF 
层 计算 整个 汉语 自动 分 词 观察 序列 状态 标记 的 联合 条 
件 概 率 分 布 。 图 2 是 基于 新 时 代 人 民 日 报 分 词语 料 的 
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Bi-LSTM -CRF 自动 分 词 模 型 结构 图 。 模 型 框架 同样 也 
包括 5 层 , 不 同 的 是 第 4 层 由 Softmax 层 变 为 条 件 随机 
场 (CRF) 层 ,使 得 模型 在 概率 计算 过 程 中 可 以 考虑 原 


输出 标记 层 


本 相互 独立 的 汉语 分 词 输出 标签 之 间 的 前 后 依赖 关 
系 , 以 便于 输出 最 优 的 分 词 标签 序列 。 


条 件 随机 场 层 


双向 LSTM 层 


站 
可 
汪 
人 
每 
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输入 层 
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@ 〇 GD 基于 上 述 两 个 模型 所 构建 的 新 时 代 人 民 日 报 语 
炊 咎 动 分 词 模型 的 特点 如 下 :一 方面 ,完全 通过 基于 深 

习 模 型 获取 字 与 字 之 间 构 成 词汇 的 特征 实现 汉语 
自动 分 词 模型 的 构建 ,不 涉及 到 任何 人 为 特征 的 添加 

方面 ,在 新 时 代 人 民 日 报 语 料 的 基础 上 ,充分 利用 
郊 如 LSTM 能 够 解决 模型 在 训练 过 程 中 出 现 的 梯度 消 
失 莉 梯度 爆炸 问题 这 一 特性 ,从 而 从 整体 上 确保 了 所 
枯 建 汉语 自动 分 词 模型 的 性 能 。 
3_ 深度 学 习 分 词 模型 性 能 分 析 
- 怕 在 这 一 部 分 主要 对 新 时 代 人 民 日 报 语 料 的 预 处 
理 .评价 指标 和 模型 参数 与 硬件 平台 进行 了 介绍 ,并 在 
介绍 的 基础 上 重点 对 所 构建 的 Bi-LSTM 和 Bi-LSTM- 
CRF 汉语 自动 分 词 模 型 的 整体 性 能 进行 了 细致 和 全 面 
的 分 析 。 所 构建 的 新 时 代 人 民 日 报 语 料 深度 学 习 自动 
分 词 模型 的 创新 性 主要 如 下 :一 方面 ,实现 了 深度 学 习 
自动 分 词 模型 与 体现 时 代 特 征 的 语 料 的 有 机 结合 ,从 
而 确保 了 所 构建 的 自动 分 词 模型 能 够 高 效 和 精准 地 完 
成 对 相关 领域 文本 的 自动 分 词 ; 另 一 方面 ,针对 多 字 
词 , 从 词 的 构成 成 分 角度 对 自动 分 词 的 整体 性 能 进行 
了 探究 ,这 为 深入 分 析 深度 学 习 模 型 在 自动 分 词 这 一 
研究 任务 上 的 性 能 提供 了 新 的 视角 。 
3.1 语 料 预 处 理 及 评价 指标 

基于 Bi-LSTM 和 Bi-LSTM -CRF 两 种 次 度 学 习 模 
型 ,在 新 时 代 人 民 日 报 语 料 上 ,训练 和 测试 自动 分 词 模 
型 ,并 对 两 种 模型 的 性 能 进行 分 析 。 深 度 学 习 分 词 模 


2 基于 BiLSTM-CRF 的 汉语 自动 分 词 模型 架构 


型 构建 的 流程 具体 如 下 : 

首先 ,基于 人 民 日 报 汉 语词 汇 的 字 长 ,在 构建 深度 
学 习 自 动 分 词 模 型 的 过 程 中 所 使 用 的 标记 集 由 “B,1， 
E,S”4 个 标记 构成 ,“B” “I” 和 “E” 分 别 代 表 多 字 词 的 
首 字 词 中间 字 和 尾 字 ,而 “S$ " 则 表示 单字 词 。 如 果 一 
个 词 的 长 度 超过 了 3 个 字 , 则 让 “7” 循环 表示 中 间 出 现 
的 字 。 

其 次 ,从 新 时 代 当 中 选取 2018 年 1 月 人 民 日 报 语 
料 作 为 构建 分 词 模型 的 训练 和 测试 语 料 。 在 把 人 民 日 
报 语 料 转 化 为 深度 学 习 模 型 可 以 训练 和 测试 的 语 料 过 
程 中 ,结合 所 制定 的 标记 集 及 标注 准则 ,对 人 民 日 报 语 
料 实现 了 训练 和 测试 格式 的 转换 ,具体 样 例如 表 1 所 
不 : 


表 1 深度 学 习 训 练 和 测试 语 料 样 例 


编号 训练 和 测试 字 序 列 标记 
1 参 B 
和 加 E 
3 的 S 
4 多 S 
5 是 S 
6 热 B 
心 E 
8 社 B 
9 区 E 
10 事 B 
11 务 E 
12 的 S 


在 样 例 表 1 中 ,由 于 字 序 列 这 


行 主 要 由 单字 词 
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和 二 字 词 构成 ,在 标记 这 一 列 当 中 , 主要 使 用 了 B,E 表 2 基于 Bi-LSTM 模型 的 自动 分 词性 能 
和 S 这 3 个 标记 。 模型 评测 对 象 ”精准 率 /% ”召回 率 /% ”调和 平均 值 /% 
最 后 ,对 所 构建 的 深度 学 习 分 词 模 型 评价 仍 使 用 模型 1 了 ee 0 6239 
精准 率 、 召 回 率 和 调和 平均 值 这 3 个 指标 。 在 具体 评 ， .90 
学 习 分 词 模型 的 整体 性 能 ,不 仅 对 整体 的 分 词 标记 进 所 有 标记 97.51 97.51 97.51 
行 评价 ,而 且 对 单一 的 分 词 标 记 逐 一 地 进行 评价 。 模型 2 » 00 a 07 
3.2 深度 学 习 模 型 参数 及 硬件 平台 E 97.72 98.75 98.23 
i . I 94.19 85.76 89.78 
本 文 分 别 使 用 Bi-LSTM 模型 .Bi-LSTM -CRF 模型 S 97.50 97.24 97.37 
进行 自动 分 词 模型 构建 。 对 于 每 种 模型 , 均 采 用 十 所 有 标记 97.48 97.48 97.48 
折 交 叉 训练 的 方式 ,以 排除 随机 误差 对 实验 结果 的 模型 3 四 2 2 
影响 。Bi-LSTM 模型 和 Bi-LSTM -CRF 模型 这 两 个 深 ， Gi a 0 
度 学 习 模 型 主要 由 Embedding 层 、 双 向 LSTM 层 和 S 97.60 97.15 97.38 
CRE 层 构成 。 在 模型 具体 训练 过 程 中 ,LSTM 层 数 设 所 有 标记 97.47 97.47 97.47 
芒 2 ,而 每 个 LSTM 层 的 隐藏 单元 数 (hidden unit) 模型 4 B 97.76 98.91 98.34 
CN . . . 
则 设 定 为 256。 为 了 防止 在 自动 分 词 模型 构建 过 程 0 
素 济 度 爆炸 与 消失 问题 的 出 现 ,本 文采 用 梯度 裁 前 s 97.52 ga 97.36 
( gragient clipping) 技术 ,并 把 其 值 设置 为 5.0。 在 训 所 有 标记 97.43 97.43 97.43 
练 的 数据 输入 过 程 中 ,每 批 数 据 量 (batch size) 大 小 模型 5 ke < Ws 
旋 娩 为 32, 而 隐 忠 单元 随机 删除 概率 ( dropout rate) 0 
可 久 97.30 97.18 97.34 
C001 ,整个 训练 模型 的 字 舱 入 (word embedding ) 则 所 有 标记 97.40 97.40 97.40 
CN > 由 异 邢 ! 
驯 耳 gensim 包 的 word2vec 进行 预 训练 ,向 量 维度 设 模型 6 3 We MW 2 
置 毅 128 维 ,而 训练 周期 (Epoch) 设置 为 200 ,梯度 优 0 
仿 星 ( Optimizer ) 为 Adam。 为 下 防止 过 拟 合 现象 并 加 S 97.50 97.23 97.37 
快 济 练 速度 ,在 模型 训练 过 程 中 采用 early stop 模式 ， 所 有 标记 97.45 97.45 97.45 
当 交 叉 验证 集 F 值 10 次 不 提高 时 , 则 停止 整个 分 词 。 并 7? 3 Wi 人 ee 
Fe E 97.67 98. 80 98.23 
演 庆 的 训 乡 
和 I 94.61 85.38 89.76 
由 于 神经 网 络 在 训练 过 程 中 需要 涉及 大 量 的 并 行 S 97.61 97.24 97.43 
运算 和 德 阵 计算 ,在 中 央 处 理 器 (CPU ) 上 开展 深度 学 所 有 标记 97.50 97.50 97.50 
习 任 务 时 ,无 法 提供 足够 的 吞吐 量 和 响应 速度 。 因 此 ， 模型 8 2 2 
E 97.56 98. 80 98. 17 
言 性 能 欣 | 形 人 外 理 喇 
本 文 使 用 高 性 能 的 NVIDIA Tesla P40 图 形 处 理 天 I 94.49 84.52 89.23 
( GPU ) 进行 神经 网 络 的 训练 , 它 可 提供 比 CPU 快 60 S 97.53 97.17 97.35 
倍 以 上 的 处 理 能 力 , 可 达到 47 TOPS (万 亿 次 运算 / 秒 ) 所 有 标记 97.41 97.41 97.41 
的 推理 性 能 。 本 文 使 用 的 计算 机 配置 情况 介绍 如 下 : 模型 9 > Wi 2 2 
E 97.75 98.75 98.25 
CPU:48 颗 Intel (R) Xeon (R) CPU ES -2650 wd @ 
I 94.06 85. 85 89.77 
2.20GHz; 内存:256GB;GCPU:6 块 NVIDIA Tesla P40 ; 显 a a i 
存 :24GB ;操作 系统 : CentOS 3. 10.0。 所 有 标记 97.52 97.52 97.52 
3.3 基于 BiLSTM 模型 的 自动 分 词性 能 分 析 模型 10 B 97.74 98.91 98.32 
E 97.58 98.76 98.17 
基于 训练 和 测试 语 料 , 通 过 Bi-LSTM 模型 ,构建 了 | i ee i 
10 个 自动 分 词 模 型 ,并 基于 精准 率 、 召 回 率 和 调和 平 S 97.51 97.25 97.38 
均值 对 10 个 模型 的 性 能 进行 了 评测 ,具体 性 能 如 表 2 所 有 标记 97.42 97.42 97.42 
所 示 : 
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根据 表 2 中 所 有 标记 的 精准 率 和 召回 率 ,Bi-LSTM 
自动 分 词 模型 的 平均 调和 平均 值 为 97.46% ,其 中 最 
高 的 调和 平均 值 为 97. 52% 。 通 过 对 BEIT 和 S4 个 
标记 性 能 的 分 析 ,影响 所 有 标记 平均 调和 平均 值 性 能 
提升 的 原因 在 于 中 间 字 的 整体 性 能 较 差 。 在 Bi-LSTM 
自动 分 词 模型 中 ,单字 词 的 平均 调和 平均 值 为 
97. 39% , 相 较 于 所 有 标记 的 平均 调和 平均 值 来 说 降低 
了 0.07% 。 单 字 词 的 最 高 调和 平均 值 为 97. 48% , 超 
过 了 所 有 标记 的 平均 调和 平均 值 ,而 比 所 有 标记 的 最 
高 调和 平均 值 低 0. 07% 。 为 了 更 加 细致 而 全 面 地 对 
Bi-LSTM 自动 分 词 模型 的 性 能 进行 分 析 , 对 多 字 词 的 
首 字 、 中 间 字 和 尾 字 进 行 了 评估 。 多 字 词 的 首 字 平 均 
调和 平均 值 为 98. 35% , 比 所 有 标记 的 平均 调和 平均 
信 高 0. 89% , 而 首 字 的 最 高 调和 平均 值 则 达到 了 
98<% .由 于 多 字 词 的 总 长 度 一 定 程度 上 是 由 中 间 字 


j 字 的 平均 调和 平均 值 为 89. 55% ,最 高 的 调和 平 


均 信 为 89.84% ,而 最 低 的 则 仅 为 89.23% 。 多 字 词 的 


,其 中 最 高 的 调和 平均 值 为 


了 验证 Bi-LSTM 模型 在 融入 CRF 解决 输出 结 
扁 置 上 的 整体 性 能 ,在 人 民 日 报 分 词 的 训练 和 测 
试 诀 料 上 ,完成 了 对 Bi-LSTM -CRF 分 词 模型 的 构建 并 
对 大 构建 模型 进行 了 评测 。Bi-LSTM -CRF 分 词 模型 的 
精 曾 率 .召回 率 和 调和 平均 值 具体 见 表 3。 

从 表 3 中 可 以 计算 出 ,所 有 标记 的 Bi-LSTM -CRF 
分 词 模型 的 平均 调和 平均 值 为 97. 43% ,最 高 调和 平 
均值 为 97.49% , 比 所 有 标记 的 Bi-LSTM 分 词 模型 的 平 
均 调 和 平均 值 和 最 高 调和 平均 值 均 低 了 0.03% 。Bi- 
LSTM 分 词 模型 的 单字 词 的 平均 调和 平均 值 为 
97. 37% ,最 高 调和 平均 值 为 97.47% , 仅 比 Bi-LSTM 分 
词 模型 的 单字 词 平均 调和 平均 值 和 最 高 调和 平均 值 低 
了 0.02% 和 0.01% 。 多 字 词 的 首 字 的 Bi-LSTM -CRF 
分 词 模型 的 平均 调和 平均 值 为 98. 34% ,最 高 调和 平 
均值 为 98.38% ,与 BiILSTM 分 词 模型 的 多 字 词 的 首 字 
平均 调和 平均 值 和 最 高 调和 平均 值 相 比 低 了 0. 01% 
和 0.02% 。 而 对 于 多 字 词 的 中 间 字 的 标注 , 相 较 于 Bi- 
LSTM 模型 ,融入 了 CRF 的 Bi-LSTM 模型 整体 性 能 
略微 的 下 降 , 平 均 调和 平均 值 为 89. 28% ,而 最 高 调和 
平均 值 为 89.62% , 比 Bi-LSTM 模型 的 平均 调和 平均 值 
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表 3 基于 BiLSTM-CRF 模型 的 自动 分 词性 能 


模型 评测 对 象 精准 率 /% 召回 率 /% ”调和 平均 值 /% 

模型 1 B 97.81 98. 95 98.38 
E 97. 68 98. 82 98. 25 

M 94.79 84. 22 89.19 

S 97.48 97.46 97.47 

所 有 标记 97.49 97.49 97.49 

模型 2 B 97. 84 98.91 98.37 
E 97. 68 98.76 98. 22 

M 94. 14 85.39 89.55 

S 97.51 97.22 97.36 

所 有 标记 97. 46 97. 46 97. 46 

模型 3 B 97.77 98. 88 98.32 
E 97.64 98.75 98.20 

M 94. 48 84.93 89.45 

S 97.44 97.28 97.36 

所 有 标记 97.43 97.43 97.43 

模型 4 B 97.77 98. 83 98.30 
E 97.62 98. 68 98. 15 

M 93. 42 84.94 88.98 

S 97. 46 97.18 97.32 

所 有 标记 97.36 97.36 97.36 

模型 5 B 97.73 98.79 98. 26 
E 97. 62 98. 67 98. 14 

M 94.03 84. 88 89.22 

S 97.37 97.26 97.32 

所 有 标记 97.36 97.36 97.36 

模型 6 B 97.79 98.88 98.33 
E 97. 65 98.73 98. 19 

M 93. 80 84. 84 89.10 

S 97.46 97.21 97.33 

所 有 标记 97.41 97.41 97.41 

模型 7 B 97.84 98.90 98.37 
E 97. 68 98.74 98.21 

M 93.98 85. 64 89.62 

S 97.58 97.20 97.39 

所 有 标记 97.47 97.47 97.47 

模型 8 B 97.77 98. 87 98.32 
E 97.62 98.72 98.17 

M 93.79 84.70 89.01 

S 97. 46 97.23 97. 35 

所 有 标记 97.38 97.38 97.38 

模型 9 B 97.87 98.90 98.38 
E 97.72 98.75 98. 23 

M 94. 05 85.37 89.50 

S 97.49 97. 25 97.37 

所 有 标记 97.48 97.48 97.48 

模型 10 B 97.75 98. 89 98.32 
E 97.61 98.75 98.17 

M 94.31 84.57 89.17 

S 97.47 97.30 97.38 

所 有 标记 97.41 97.41 97.41 
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词语 料 库 构建 ,性 能 及 应 用 (二 ) 


深度 学 习 自动 分 记 模 型 几 中 访 邮 全 本 期 利 


和 最 高 调和 平均 值 分 别 低 了 0.27% 和 0.22% 。 在 多 
字 词 的 尾 字 上 ,Bi-LSTM -CRF 分 词 模型 的 平均 调和 平 
均值 和 最 高 调和 平均 值 分 别 为 98. 19% 和 98.25% ,分 
别 比 Bi-LSTM 模型 的 平均 调和 平均 值 和 最 高 调和 平均 
值 低 了 0.02% 和 0.01% 。 

在 汉语 自动 分 词 的 任务 上 ,通过 对 比 基 于 Bi- 
LSTM 和 Bi-LSTM -CRF 所 构建 自动 分 词 模型 的 性 能 得 
出 如 下 认识 。 首 先 ,在 汉语 自动 分 词 这 一 任务 上 ,PBi- 
LSTM 和 Bi-LSTM -CRF 这 两 个 深度 学 习 模 型 的 整体 性 
能 差距 非常 小 。 从 整体 性 能 的 评估 到 具体 标记 的 评 
测 , 这 一 差距 基本 上 维持 在 0.01% 到 0.27% 之 间 。 其 
次 ,对 于 汉语 自动 分 词 模型 的 构建 ,Bi-LSTM -CRF 在 目 


前 的 参数 设置 上 ,其 对 于 结果 输出 的 位 置 偏 移 性 这 

问题 解决 优势 并 没有 得 到 充分 的 体现 。 最 后 ,对 于 汉 
话 广 汇 长 度 比较 大 的 分 词 任务 来 说 ,Bi-LSTM 和 Bi- 
LSIYLCRF 模 更 性 人 Eb 整体 上 均 不 是 太 突出 。 对 于 这 一 
生字 间 的 中 间 字 的 调和 平均 值 均 较 低 就 是 有 力 证 


ee me 
司 模型 的 构建 进行 了 系统 的 探究 。 基 于 Bi-LSTM 
和 GBi -LSTM-CRF 这 两 种 深度 学 习 模 型 ,本 文 完成 了 深 
度 学 习 汉 语 自动 分 词 模型 的 构建 ,并 从 宏观 和 微观 两 
个 纺 度 上 对 比 了 两 种 不 同 模型 的 整体 分 词性 能 。 围 于 
语 料 的 规模 和 模型 训练 的 时 间 ,在 构建 本 文 的 深度 学 
习 自 动 分 词 模 型 的 过 程 中 对 所 涉及 的 参数 只 进行 了 简 
单 的 测验 ,因此 在 后 续 的 探究 中 不 仅 要 强化 对 模型 参 
数 在 各 个 维度 上 的 验证 ,而 且 要 构建 新 的 深度 学 习 自 
动 分 词 模型 ,以 便于 从 多 角度 ,多 维度 上 探究 深度 学 习 
在 汉语 自动 分 词 这 一 研究 任务 上 的 性 能 。 
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Construction, Performance and Application of New Era People’s Daily Segmented Corpus ( 工 ) 
一 一 Constructing Automatic Word Segmentation Model of Deep Learning 
Huang Shuiqing”” Wang Dongbo'” 
:College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095 
? Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095 
Abstract: [Purpose/significance | On the basis of the new era People s Daily( NEPD) word segmentation corpus, 
the construction of the automatic word segmentation model of deep learning not only can help to provide relevant experience 
for the construction of high -performance word segmentation model, but also can verify the performance of the corresponding 
model of deep learning through specific natural language processing tasks. [ Method/process | Based on the introduction 
of Bi-directional Long Short-Term Memory (Bi-LSTM) and Bi-directional Long Short-Term Memory with conditional ran- 
dom field ( Bi-LSTM-CRF), this paper expounded the process, type and situation of Chinese word segmentation prepro- 
cessing, the evaluation indexes and parameters and hardware platform , the Bi-LSTM and Bi-LSTM-CRF Chinese automatic 
word segmentation models were constructed respectively, and the overall performance of the models was analyzed. |[ Re- 
sult/Zconclusion ] The overall performance of the Bi-LSTM and Bi-LSTM-CRF Chinese automatic word segmentation model 
is( MGjatively reasonable from the three indexes of precision, recall and F value. In terms of specific performance ，Bi -LSTM 
wed segmentation model is superior to Bi-LSTM-CRF word segmentation model, but the difference is very small. 
‘Keywords: new era People’ s Daily segmented corpus segmented corpus automatic word segmentation deep 
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《图 书 情报 工作 》 投 稿 作者 学 术 诚 信 声 明 


《图 书 情报 工作 》 一 直 秉 持 发 表 优 秀 学 术 论 文成 果 \ 促 进 业 界 学 术 交 流 的 使 命 , 并 致力 于 净化 学 术 出 版 环境 , 创 
建 良好 学 术 生 态 。2013 年 牵头 制订 发布 并 开始 执行 4 图 书馆 学 期 刊 关于 恪守 学 术 道德 净化 学 术 环 境 的 联合 声明 》 
(简称 《声明 》)( 见 :http:/Awww. lis. ac. cnACN/column/item202. shtml) ,随后 又 牵头 制订 并 发 布 4 中 国 图 书馆 学 情报 
学 期 刊 抵制 学 术 不 端 联合 行动 计划 》( 简称 4 联合 行动 计划 》)( 见 : http://www. lis. ac. cn/CN/column/item247. sht- 
ml) 。 为 贯彻 和 落实 这 一 理念 ,本 刊 郑重 声明 ,即日 起 ,所 有 投稿 作者 须 承 诺 : 投 稿 本 刊 的 论文 , 须 遵 守 以 上 《声明 》 
及 《联合 行动 计划 》, 自 觉 坚 守 学 术 道德 ,坚决 抵制 学 术 不 端 。《 图 书 情报 工作 》 对 一 切 涉嫌 抄袭 、 唱 窃 等 各 种 学 术 不 
端 行为 的 论文 实行 零 容 忍 ,并 采取 相应 的 惩戒 手段 。 
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